This paper describes a testing methodology for quantitatively assessing the risk that rare or unique training-data sequences are unintentionally memorized by generative sequence models-a common type of machine-learning model. Because such models are sometimes trained on sensitive data (e.g., the text of users' private messages), this methodology can benefit privacy by allowing deep-learning practitioners to select means of training that minimize such memorization.In experiments, we show that unintended memorization is a persistent, hard-to-avoid issue that can have serious consequences. Specifically, for models trained without consideration of memorization, we describe new, efficient procedures that can extract unique, secret sequences, such as credit card numbers. We show that our testing strategy is a practical and easy-to-use first line of defense, e.g., by describing its application to quantitatively limit data exposure in Google's Smart Compose, a commercial text-completion neural network trained on millions of users' email messages.
translated by 谷歌翻译
In this paper, we build on advances introduced by the Deep Q-Networks (DQN) approach to extend the multi-objective tabular Reinforcement Learning (RL) algorithm W-learning to large state spaces. W-learning algorithm can naturally solve the competition between multiple single policies in multi-objective environments. However, the tabular version does not scale well to environments with large state spaces. To address this issue, we replace underlying Q-tables with DQN, and propose an addition of W-Networks, as a replacement for tabular weights (W) representations. We evaluate the resulting Deep W-Networks (DWN) approach in two widely-accepted multi-objective RL benchmarks: deep sea treasure and multi-objective mountain car. We show that DWN solves the competition between multiple policies while outperforming the baseline in the form of a DQN solution. Additionally, we demonstrate that the proposed algorithm can find the Pareto front in both tested environments.
translated by 谷歌翻译
停止单词对于信息检索和文本分析调查自然语言处理任务非常重要。当前的工作提出了一种评估旨在自动创建技术的停止单词列表质量的方法。尽管本文提出的方法是在乌兹别克语言的自动生成的停止单词列表上测试的,但通过一些修改,可以应用于同一家族的类似语言或具有凝聚力性质的语言。由于乌兹别克语的语言属于凝集性语言的家族,因此可以解释说,语言中停止单词的自动检测比在易转语中更复杂。此外,我们通过调查如何自动分析乌兹别克斯坦文本中的停止单词的检测,将以前的工作纳入了停止单词检测的示例。这项工作致力于回答是否有一种很好的方法来评估乌兹别克文本的可用停止单词,或者是否有可能通过研究乌兹别克斯坦句子的哪个部分包含大多数停止单词,来研究的数值特征独特的单词。结果显示停止单词列表的准确性可接受。
translated by 谷歌翻译
许多社会机器人技术研究人员正在解决的一个问题是如何在机器人中创建更类似人类的行为,以使人类与机器人之间对人类伴侣更直观的合作。但是,为了开发类似人类的协作机器人系统,首先必须更好地理解人类的协作。人类的合作是我们所有人都熟悉的事情,但是从运动学的角度来看,对此并不了解。例如,一种尚未进行彻底研究的动态,但自然而然地发生在人类的合作中,例如领导者追随者的动态。在我们先前的研究中,我们解决了在协作达到任务期间人类二元组中领导者的角色分配的问题,结果暗示,在个人实验中表现较高的受试者自然会在身体协作中承担领导者的角色。在这项研究中,我们通过观察协作任务变得更加复杂时观察到领导者的前进动力如何改变了人类二元组中的领导者角色分配研究。在这里,这项研究是针对达到任务的,在执行2D达到任务时,二元组中的一个主题面临着避免障碍的额外任务,而他们的伴侣则不知道障碍。我们发现,受试者在整个任务中都改变了角色,以便成功完成任务,但是考虑到整个任务领导者,表现较高的人总是在表现较低的人中始终占主导地位,无论他们是否知道其他任务是否避免障碍。
translated by 谷歌翻译
随着无线标准的发展,引入了更复杂的功能,以解决吞吐量,延迟,安全性和效率方面的增加。为了释放此类新功能的潜力,目前正在利用人工智能(AI)和机器学习(ML)(ML)来从数据中得出模型和协议,而不是通过手工编程。在本文中,我们探讨了将ML应用于下一代无线局域网(WLAN)的可行性。更具体地说,我们专注于IEEE 802.11AX空间重用(SR)问题,并通过联合学习(FL)模型来预测其性能。在这项工作中概述的FL解决方案集是2021年国际电信联盟(ITU)AI的5G挑战赛的一部分。
translated by 谷歌翻译
无监督的异常检测对于未来在大型数据集中搜索稀有现象的分析可能至关重要,例如在LHC收集的。为此,我们介绍了一个受到物理启发的变量自动编码器(VAE)体系结构,该体系结构在LHC奥运会机器学习挑战数据集中竞争性和稳健性。我们证明了如何将某些物理可观察物直接嵌入VAE潜在空间中,同时使分类器显然是不可知的,可以帮助识别和表征测得的光谱中的特征,这是由于数据集中存在异常而引起的。
translated by 谷歌翻译